ChinaXiv 合 作 期 刊 


202302.00205v1 


chinaXiv 


基于 轻 量化 改进 YOLOv5 的 苹果 树 产 量 测定 方法 


ARE, 


(1. 中 国 农业 大 学 ESI SE ,北京 100083;2. 中 


BEB, BIN, WB, RB 


摘 要 : 果树 测 产 是 果园 管 


国 农 业 大 学 烟台 研究 院 , 山 东 烟 台 264670) 


理 的 重要 环节 之 一 ， 为 提升 苹果 果园 原 位 测 产 的 准确 性 ， 本 研究 提出 一 种 包含 


改进 型 YOLOv5 果实 检测 算法 与 产量 拟 合 网 络 的 产量 测定 方法 。 利 用 无 人 机 及 树 每 派 摄像 头 采 集 摘 袋 后 不 同 


LOvS5 算 法 进行 改进 ， 解 决 网 络 中 存在 的 特 行 


着 色 时 间 的 苹果 果园 原 位 图 像 ， 形 成 样本 数据 集 ; 通过 更 换 深 度 可 分 离 卷 积 和 添加 注意 力 机 制 模块 对 YO- 
E 提 取 时 无 注意 力 偏 好 问题 和 参数 元 余 问 题 ， 从 而 提升 检测 准确 


度 ， 降 低 网 络 参数 带 来 的 计算 负担 ; 将 图 片 作为 输入 得 到 估 测 果实 数量 以 及 边界 框 面 总 积 。 以 上 述 检 测 结 


果 作 为 输入 、 实 际 产量 作为 输出 ， 训 练 产量 拟 合 网 络 ， 得 到 最 终 测 产 模型 。 测 产 试验 结果 表明 ， 改 进 型 YO- 


LOv5 果实 检测 算法 可 以 在 提高 轻 量 化 程度 的 同时 提升 识别 准确 率 ， 与 改进 前 相 比 ， 检 测速 度 最 大 可 提升 
15.3796, 平均 m4P 最 高 达到 96.79%; 在 不 同 数据 集 下 的 测试 结果 表明 ， 光 照 条 件 、 着 色 时 间 以 及 背景 有 无 
白布 均 对 算法 准确 率 有 一 定 影响 ; 产量 拟 合 网 络 可 以 较 好 地 预测 出 果树 产量 ， 在 训练 集 和 测试 集 的 决定 系 
数 R? 分 别 为 0.7967 和 0.7982， 均 方 根 误差 RMSE 分别 为 1.5317 和 1.4021 kg ， 不 同 产量 样本 的 预测 精度 基本 稳 


定 ; 果树 测 产 模 型 在 背景 有 白布 和 无 白布 的 条 伯 


中 图 分 类 号 :S252+.9 


引用 格式 : 李 志 军 , 杨 圣 慧 , 史 德 帅 , 刘 星 星 , 郑 永 军 . HET 


农业 (中 英文 ) 2021, 3(2): 100- 


FEF 下， 相对 误差 范围 分 别 在 7% 以 内 和 13% 以内。 本 研究 提出 
的 基于 轻 量化 改进 YOLOv5 的 果树 产量 测定 方法 具有 良好 的 精度 和 有 效 性 ， 基 本 可 以 满足 自然 环境 下 树 上 苹 
果 的 测 产 要求 ， 为 现代 果园 环境 下 的 智能 农业 装备 提供 技术 参考 。 
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F 轻 量化 改进 YOLOv5 的 苹果 树 产 量 测定 方法 四. 智慧 


LI Zhijun, YANG Shenghui, SHI Deshuai, LIU Xingxing, ZHENG Yongjun. Yield estimation method of apple tree 
based on improved lightweight YOLOvS[J]. Smart Agriculture, 2021, 3(2): 100-114. (in Chinese with English ab- 


stract) 


1 引言 


果树 产量 测定 不 但 可 以 帮助 果农 掌握 果树 的 
生长 情况 、 佑 算 果 园 的 整体 产值 ， 而 且 可 以 为 合 


理 安排 收获 提供 定量 依据 "。 


传统 的 果树 测 产 方 


法 主要 依靠 人 工 目 测 清点 ， 不仅 对 测 产 人 员 的 经 


验 有 较 高 要 求 ， 而 且 劳 动 强度 
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为 实现 苹果 测 产 流程 的 自动 化 ， 学 者 开始 利 
用 机 器 视觉 等 技术 进行 相关 研究 ， 主 要 集中 在 利 
用 该 技术 从 果树 图 像 提 取出 果实 个 数 等 信息 OO” 
而 基于 图 像 信息 估 测 果树 产量 的 研究 仍 需 进 一 步 
深入 。 程 洪 等 “提出 将 果实 区 域 比例 、 果 实 个 
数 比 、 小 面积 果实 比例 、 果 实 树叶 比 等 作为 特征 
输入 ， 建 立 神经 网 络 的 方法 拟 合 果树 产量 。 
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Crtomir 等 ”从 果树 捡 果 结 束 到 果实 收获 期 内 ， 
采集 “Golden Delicious” PI “Braeburn” PPH 
果树 图 像 数据 ， 以 果实 个 数 为 输入 ， 产 量 为 输出 
构建 人 工 神经 网 络 进行 模型 的 训练 和 测试 。 该 方 
法 需要 进行 多 组 数据 的 采集 ， 因 此 仪 适用 于 接近 
或 已 经 位 于 成 熟 期 的 苹果 果树 测 产 。Roy 等 ” 提 
出 了 一 种 基于 颜色 识别 苹果 的 半 监 督 聚 类 方法 ， 
以 及 一 种 利用 空间 属性 从 具有 任意 复杂 几何 形状 
的 苹果 复 中 估计 数量 的 无 监督 聚 类 方法 ， 将 其 集 
成 为 一 个 完整 的 端 到 端 计算 机 视觉 系统 ,使 用 单 
个 摄像 机 捕获 的 图 像 作 为 输入 ， 输 出 果园 的 预测 
产量 ， 在 不 同 数据 集 上 的 准确 度 为 91.98%~ 
94.8196. 

基于 深度 学 习 的 目标 检测 算法 可 以 快速 检测 
出 目标 数量 ， 其 主要 分 为 两 类 ， 一 类 是 以 YOLO 
(You Only Look Once) 系列 "2 和 SSD (Single 
Shot MultiBox Detector) 系列 ^ 为 代表 的 一 阶 
段 检测 算法 ， 该 类 算法 具有 较 快 的 检测 速度 ， 但 
是 精度 相对 偏 低 ; 另 一 类 是 以 区 域 卷 积 神经 网 络 
(Region-CNN, R-CNN) 系列 “5 为 代表 的 二 阶 
段 检测 算法 ， 其 检测 精度 较 高 ， 缺 点 是 实时 性 
差 。YOLOv5 凭借 其 较 快 的 检测 速度 以 及 良好 的 
检测 精度 得 到 了 研究 人 员 的 青睐 "”。 具 体 来 
4, YOLOvS 在 数据 的 输入 端 增加 了 Mosaic 数 据 
增强 、 自 适应 锚 框 计算 、 自 适应 图 片 缩放 等 操 
JE; 特征 提取 网 络 为 基于 CSPNet ^" ff] CSPDark- 


- : 
(a) 本 研究 搭建 的 采集 平台 (b) 有 果园 原 位 图 像 采 集 现场 


net53， 可 以 在 一 定 范 围 内 降低 内 存 损耗 ; 处 理 
输出 部 分 采用 FPN 2 和 PANet 结构， 可 以 加 
快 各 层级 之 间 的 信息 流通 。 

本 研究 以 自然 环境 下 的 苹果 为 研究 对 象 ， 通 
过 对 YOLOv5 检测 算法 进行 轻 量化 改进 ， 考 虑 摘 
袋 后 不 同 着 色 时 间 、 不 同 光 照 条 件 以 及 背景 有 无 
白布 对 结果 的 影响 进行 数据 分 析 ; 融合 产量 拟 合 
网 络 ， 建 立 苹果 树 测 产 模型 ， 将 图 像 数 据 作为 输 
入 ， 佑 测 苹 果树 产量 ， 为 果实 收获 期 合理 安排 采 
摘 人 员 提 供 参考 ， 为 现代 果园 环境 下 的 智能 农业 
装备 提供 技术 参考 。 


2 数据 采集 与 处 理 


2.1 图 像 数据 采集 


原 位 图 像 在 山东 省 烟台 市 栖霞 市 官 道 镇 姚 庄 
村 山东 通达 现代 农业 集团 有 限 公 司 果 园 基地 ( 北 
纬 37°16' ， 东 经 120"64') 采集 ， 苹 果品 种 为 
“ 烟 富 3 号 ”"， 摘 袋 后 着 色 16~22 d 采 摘 果实 。 采 
集 设 备 为 自制 的 四 旋翼 无 人 机 (图 1)， RRE 
派 4B 作为 图 像 采 集 与 存储 核心 ， 其 CPU 为 Cor- 
tex-A72@1.5GHz, GPU 为 Broadcom VideoCore 
VI， 运 行内 存 8 GB， 存 储 容量 128 Go. TER GE 
(Raspberry Pi Camera V2), (RA A500, KEE 
频率 为 30 Hz， 影 像 最 大 光圈 为 F2.35， 焦距 为 
3.15 mm， 视 场 角 为 65°。 


Al 苹果 果园 原 位 图 像 采 集 


Fig.1 Acquisition of in-situ images of the apple trees in orchard 


为 降低 其 他 果树 产生 的 干扰 ， 采 用 长 4 m. 
高 3 m 的 白色 幕布 为 背景 ， 跟 随 无 人 机 移动 (如 
图 1 (c) 所 示 )。 图 像 采 集 时 无 人 机 飞行 高 度 为 


1.5 m， 距 离 果 树 1.2 m， 在 晴天 时 采集 顺 光 、 侧 
光 、 逆 光 三 个 角度 的 有 白色 背景 与 自然 条 件 图 
像 ， 作 为 测 产 模型 的 训练 及 在 自然 环境 下 的 应 用 
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效果 验证 。 

着 色 1 d 的 苹果 颜色 呈现 青绿 色 ， 与 果树 叶 
片 颜 色 较 为 接近 ; 8 d 时 开始 上 色 ， 颜 色 呈 现 淡 
红色 ; 着 色 15 d 即 可 完全 上 色 。 不 同 着 色 时 间 的 
数据 ， 便 于 对 本 研究 提出 的 果实 检测 算法 进行 泛 
化 能 力 测试 。 图 像 采 集 日 期 为 2020 年 10 月 3 日 
至 17 日 ， 每 隔 7 d 采 集 一 次 图 像 ， 采 集 时 间 为 上 
午 10 点 至 下 午 4 点 ， 共 采集 到 苹果 着 色 1 d、 着 
色 8d、 着 色 15 d 的 三 组 数据 ， 在 果实 着 色 16 d 
时 采集 果树 产量 数据 (图 2)。 


9° S. 
oe X 
果实 呈 青 绿色 ”果实 后 淡 红色 果实 时 鲜红 色 
图 2 苹果 树 产 量 测定 数据 采集 时 间 轴 
Fig. 2 Data collection timeline of the apple trees 


yield estimation 


2.2 图 像 数据 预 处 理 


数据 清洗 
为 降低 重复 图 片 数 量 以 及 无 果实 图 片 对 模型 
训练 的 干扰 ， 使 用 人 工 筛选 的 方法 对 采集 图 像 进 
行 数据 清洗 ， 即 删除 因 无 人 机 甚 停 造成 的 重复 图 
片 以 及 无 人 机 姿态 调整 过 程 中 不 含 苹 果 的 图 片 。 
数据 清洗 后 ， 着 色 1 d、8 d 和 15 d 部 分 数据 如 
图 3 所 示 。 利 用 不 同 着 色 时 间 采 集 的 不 同 光 照 条 


2.2.1 


件数 据 ， 分 析 不 同 着 色 时 间 以 及 不 同 光 照 条 件数 
据 对 检测 算法 的 影响 。 图 像 数 据 包含 果树 整体 图 
像 以 及 局 部 图 像 ， 检 测算 法 在 工作 过 程 中 只 迭代 
训练 标注 过 的 果实 区 域 。 本 研究 无 人 机 拍摄 的 整 
体 图 像 与 局 部 图 像 果实 区 域 大 小 相近 、 分 布 相 
似 ， 故 将 整体 与 局 部 图 像 作 为 训练 数据 可 以 使 算 
法 在 不 损失 检测 准确 率 的 同时 提高 其 泛 化 能 

利用 不 同时 间 点 采集 的 背景 无 白布 数据 ， 与 
背景 有 白布 数据 进行 对 比分 析 ， 验 证 本 研究 提出 
检测 算法 的 实际 应 用 效果 ， 背 景 无 白布 下 不 同时 
间 点 采集 的 部 分 苹果 图 片 如 图 4 所 示 。 
2.2.2 ”数据 集 划分 与 标注 

数据 清洗 后 ， 着 色 1d、8 d 和 15 d 数 据 各 保 
留 1000 张 。 从 背景 有 白布 数据 中 随机 挑选 300 张 
图 片 作为 测试 集 1， 并 将 测试 集 1 分 为 顺 光 、 侧 
光 和 道光 三 个 子 集 ， 每 个 子 集 包含 100 张 图 片 ; 
从 背景 无 白布 数据 中 挑选 300 张 作为 测试 集 2， 
不 分 光照 条 件 子 集 ; 剩 下 的 图 片 均 作为 训练 集 
数据 。 

采用 人 工 划 分 方法 ,在 labelImg 软 件 中 对 目 
标 果实 进行 框 选 ， 包 含 目 标 框 的 位 置 坐标 、 类 别 
等 信息 ， 标 注 结果 如 图 $ (第 104 页 ) 所 示 。 

标注 完成 后 ， 将 样本 数据 集 制作 成 标准 
PASCAL VOC2012 格式 的 数据 集 ， 图 片 及 目标 
框 数 量 如 表 1 所 示 。 


2.3 产量 数据 采集 


产量 数据 于 2020 年 10 月 18 日 9:00 一 17:00 采 
集 ， 此 时 荚果 着 色 16 d。 采 集 时 对 单 株 果树 进行 


表 1 样本 数据 集 及 数据 量 


Table 1 Sample data-sets and data volume 


测试 集 1 


dee 顺 光子 集 
着 色 天 数 /d 2 


侧 光 子 集 


测试 集 2 
道光 子 集 


图 片 数量 /， 目标 框 数量 / 图片 数 量 /， 顺 光 目 标 ”图 片 数 量 /， 侧 光 目 标 ”图片 数 量 /， ”逆光 目标 ”图片 数 量 / 目标 框 数 


张 i ak 框 数量 /个 张 框 数量 /个 张 框 数 量 /个 张 量 /个 

1 600 15,017 100 3282 100 3027 100 2963 100 3125 
8 600 16,639 100 3155 100 3241 100 2834 100 3272 
15 600 15,892 100 3268 100 3114 100 3052 100 3136 
总 计 1800 47,548 300 9705 300 9382 300 8849 300 9533 
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(b) & & 1 dn] 25 


(c) 着 色 1d 逆 光 


(e) 着 色 8d 侧 光 (Dd 6, 8 dii 


(g) d & 15 d 顺 光 (h) & & 15 d 侧 光 (i) AE 15 dif o 
图 3 不 同时 间 点 采集 的 苹果 图 像 ( 背 景 有 白布 ) 
Fig.3 Apple images captured at different time points (with white cloth in background ) 


(ala & 1d Ak b) 着 色 8 d 图 像 (@) 着 色 15 d RiR 
图 4 VR i M ERU 

Fig. 4 Apple images captured at different time points without white cloth in background) 
编号 ， 在 每 株 果 树 收获 前 ， 使 用 无 人 机 拍摄 当前 ” 络 测试 ，10 组 用 于 背景 有 白布 的 测 产 模型 验证 ， 
果树 图 像 ， 收获 后 ， 将 单 株 果实 放置 在 同一 个 框 ” “10 组 用 于 背景 无 白布 的 测 产 模型 验证 。 将 不 同 产 
中 ,使 用 电子 秤 对 苹果 进行 称 重 ， 去 掉 框 的 重量 。 量 数 据 集 数据 绘制 成 散 点 图 ， 如 图 6 所 示 。 有 果实 
即 可 得 到 单 株 果树 产量 。 得 到 数据 共 93 组 , 每 。 数量 与 果树 产量 之 间 呈 现 一 定 的 线性 相关 性 ， 并 
组 数据 包含 果树 图 像 以 及 相应 产量 ， 其 中 60 组 ， 且 果实 平均 重量 在 250~280 g 之 间 ， 表 明 该 果园 
用 于 产量 拟 合 网 络 训练 ，13 组 用 于 产量 拟 合 网 ”的 果树 长 势 较 好 ， 果 树 个 体 之 间 无 明显 差异 。 
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(ae 1 d 标 注 界 面 (有 白布 ) 


(b) 着 色 8 d 标 注 界 面 (有 白布 ) (c) 着 色 15 d 标 注 界 面 (无 白布 ) 


AS 目标 果实 标注 界面 
Fig. 5 Tagging interface for target fruit 
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(c) 验 证 集散 点 图 (背景 有 白布 ) 
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(d) 验 证 集散 点 图 (背景 无 白布 ) 


图 6 苹果 树 产 量 样 本 数据 集散 点 图 
Fig. 6 Scatter plot of yield sample data sets of the apple trees 


3 苹果 树 测 产 模型 


3.1 模型 总 体 结构 


本 研究 提出 的 果树 测 产 模型 分 为 果实 检测 算 
法 和 产量 拟 合 网 络 两 部 分 ， 如 图 7 所 示 。 果 实 检 
测算 法 利用 改进 型 YOLOv5 对 输入 的 果树 图 像 进 
行 目 标 检测 ， 输 出 图 像 中 果实 数量 以 及 所 有 果实 


合 网 络 部 分 使 用 产量 训练 集 分 开 进行 训练 ， 训 练 
完成 后 ， 可 实现 在 测 产 模型 中 输入 果树 图 像 即 可 
直接 输出 相应 的 果树 产量 。 


3.2 改进 型 YOLOv5 果 实 检 测算 法 


3.2.1 基于 轻 量化 改进 的 YOLOv5 
YOLOv5 模 型 起 源 于 YOLO， 该 算法 在 输出 


边界 框 总 面积 ; 产量 拟 合 网 络 负责 将 上 述 算法 的 
输出 作为 当前 网 络 的 输入 ， 利 用 BP 神 经 网 络 拟 
合 果树 产量 。 检 测算 法 部 分 使 用 图 像 训 练 集 、 拟 


层 回 归 目 标 框 的 位 置 坐标 及 其 所 属 类 别 具 有 良好 
的 检测 速度 。YOLO 算 法 的 核心 思想 是 将 输入 图 
片 划分 为 7X7 个 网 格 ， 目标 中 心 所 在 的 网 格 负 
责 预测 该 目标 。 每 个 网 格 负责 预测 2 个 目标 框 ， 
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mA} 
单 株 果树 图 像 | 
| 


i I 
i I 
| 输入 层 wae 输出 层 | 
果实 检测 算法 | 产量 拟 合 网 络 | 


tn a de a 


图 7 模型 总 体 结构 图 


Fig. 7 Overall structure of the model 


该 目标 框 回 归 位 置 坐 标 以 及 预测 置信 和 度 值 *。 
设 定 一 个 置信 度 阔 值 ， 滤 除 置信 度 较 低 的 目标 
框 ， 并 对 保留 的 框 进行 非 极 大 值 抑制 (Non- 
Maximum Suppression, NMS) 处 理 ， 得 到 最 终 
的 预测 效果 ， 如 图 8 所 示 。 


预测 网 格 类 别 概率 
图 8 YOLO 目标 检测 模型 
Fig. 8 YOLO object detection model 


然而 ， 传 统 的 YOLOv5 网 络 参 数量 较 大 ， 且 
在 提取 过 程 中 存在 无 注意 力 偏好 问题 ， 即 对 不 同 
重要 程度 的 特征 采用 相同 的 加 权 方 式 。 因 此 ， 本 


Lou = Loy ES La, F Loi 


NET 

| 单 株 果树 产 量 
| 

| 


研究 提出 将 YOLOvS 特 征 提取 网 络 中 的 标准 卷 积 
更 换 为 轻 量化 的 深度 可 分 离 卷 积 ， 并 且 基 于 深度 
可 分 离 卷 积 7 和 视觉 注意 力 机 制 提出 一 个 池 化 
注意 力 模 块 (Pooling Block Attention Module， 
PBAM)， 将 该 模块 添加 到 YOLOv5 网 络 中 解决 
无 注意 力 偏好 问题 。PBAM 利用 先 压缩 后 扩张 的 
方式 ， 将 浅 层 特 征 采 样 到 的 关键 点 进行 增强 学 
习 ， 并 且 该 模块 引入 了 类 似 残 差 单元 的 结构 ， 保 
证 了 网 络 在 较 深 的 情况 下 不 会 出 现 梯度 消失 或 是 
梯度 爆炸 的 问题 ; 该 模块 输出 特征 图 与 输入 特征 
图 分 辩 率 保持 一 致 ， 在 不 更 改 网 络 结构 的 前 提 
下 ，PBAM 可 以 艇 入 到 任意 网 络 结构 中 ， 具 有 结 
构 简 单 、 使 用 方便 等 优势 ， 通 过 建立 通道 间 的 相 
互 依赖 关系 ， 从 而 达到 自 适应 校准 通道 间 相 应 特 
征 的 目的 。 图 9 为 改进 后 的 YOLOv5 算法 框图 ， 
其 中 ， 红 框 为 本 研究 改进 部 分 。 
融合 后 的 YOLOv5 算 法 不 仅 可 以 利用 深度 可 
分 离 卷 积 减少 注意 力 机 制 模块 带 来 的 计算 压力 ， 
而 且 可 以 将 卷 积 计算 得 到 的 浅 层 特征 图 抽取 为 重 
要 信息 更 多 的 深层 特征 图 ， 进 一 步 提取 关键 信 
息 ， 提 升 算法 的 整体 检测 效果 。 
3.2.2 ”损失 函数 计算 
YOLOv5 的 损失 函数 由 边界 框 置信 度 损 失 
(Ly)、 类 别 损失 (Ly) 以 及 坐标 损失 (Loov) 
三 部 分 构成 ， 改 进 后 的 YOLOv5 算 法 仅 深化 了 网 
络 深 度 ， 对 以 上 函数 并 无 影响 ,不 需要 构建 新 的 
损失 也 数 。 其 中 置信 和 度 损失 和 类 别 损失 采用 交叉 
赠 的 方法 进行 计算 ， 如 公式 (0) ~ (3) 所 示 。 
(1) 


S2 B S2 B 
Lara D Â mC -A -Cn ec) eda > ALÂ nC- -CC)n( -CD)] 
i-0j-0 i-0j-0 


(2) 


Lia = >> 2 Ij" [-B,(c)lIn(p,Cc)) - (1 - p(c)) In (1 - p,(e))] (3) 


其 中 ， 史 为 划分 的 网 格 数量 ， 个 ; 8 为 每 个 
网 格 预测 边界 框 数量 ， 个 ;72 为 判断 第 ;个 网 格 
的 第 7 个 边界 框 是 否 有 需要 预测 的 目标 ; 已” 为 判 
断 第 i 个 网 格 的 第 j 个 边界 框 是 否 有 不 需要 预测 的 


目标 ; 4mw 和 4 为 网 格 有 无 目标 的 权重 系数 ; 
C, C, 为 预测 目标 和 实际 目标 的 置信 度 值 ，c 为 边 
界 框 预 测 的 目标 类 别 ; p,(c) 为 第 i 个 网 格 检测 到 
目标 时 ， 其 所 属 c 的 预测 概率 ，%; Pi(c) 为 第 i 
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图 9 改进 后 的 YOLOv5 算法 框图 


Fig. 9 Block diagram of the improved YOLOVvS algorithm 
个 网 格 检测 到 目标 时 ， 其 所 属 c 的 实际 概率 ，%。 ” 框 的 面积 ,像素 ; C 为 4 和 8B 的 最 小 外 接 和 矩形 面 
本 研究 采用 Ls 作 为 边界 框 坐标 的 损失 函 P 像素。 
数 ， 如 公式 (4) ~ (6) 所 示 。 3.3 产量 拟 合 网 络 


= = i 


ei... 40x40x18 20x20x18 


iki 红 框 为 本 研究 改进 部 分 


poses (4) 
a= TUE. 由 于 果实 检测 数量 以 及 边界 框 面积 与 估 测 产 
| (5) 量 之 间 的 函数 映射 关系 并 不 明确 ， 属 非 线性 函数 
ae Ici 关系 特征 ， 因 此 本 研究 采用 BP 神经 网 络 作为 果 
S B RE 量 拟 合 部 分 ， H Ti dic : 意 复杂 模式 
Lau = S - GU) T 实 产 量 拟 合 部 分 ， 提 升 模型 整体 对 任意 复杂 模式 


22K 的 分 类 能 力 与 多 维 函数 映射 能 力 。 由 于 BP 网 络 
+ 中 ，4 为 丰 实 框 的 面积 ， 像 素 ; 8 为 预测 。 的 输入 包含 了 边界 框 面积 ， 因 此 图 像 拍摄 的 距离 


\ 
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与 相机 的 参数 就 显得 尤为 重要 。 本 人 研究 在 图 像 采 
集 时 ,保持 采集 平台 与 果树 的 距离 不 变 ， IP ALA 
定 相机 的 参数 ， 保 证 测 产 的 准确 性 。 

本 人 研究 采用 3 层 全 连接 层 、1 层 ReLU 激活 层 
和 1 层 Sigmoid 激 活 层 完成 网 络 结构 的 搭建 ， 网 
络 拓扑 结构 如 图 10 所 示 。BP 网 络 的 输入 神经 元 
数量 为 2 个 ， 分 别 对 应 改进 型 YOLOv5 果实 检测 
算法 输出 的 果实 数量 (个 ) 以 及 边界 框 总 面积 
(像素 ); 输出 神经 元 的 数量 为 1 个 ， 对 应 图 像 中 
的 果树 产量 。 在 隐藏 层 中 加 入 ReLU 或 Sigmoid 
激活 函数 ， 可 以 在 一 定 程 度 上 增加 神经 网 络 的 非 
线性 因素 ， 加 快 算法 训练 速度 ， 并 且 可 以 解决 反 
向 传播 时 梯度 消失 问题 ， 有 效 降 低 过 拟 合 发 生 的 
概率 。 


输入 层 Eika ReLU 层 全 连接 层 ^ Sigmoid 层 ”全 连接 层 输出 层 


图 10 BP 网 络 拓扑 结构 图 
Fig.10 BP network topology structure diagram 


隐藏 层 神经 元 数量 的 确定 没有 明确 的 理论 方 
法 ， 因 此 本 研究 先 由 经 验 公 式 确 定 初始 值 ， 如 公 
X CD 所 示 ; 再 根据 网 络 训练 过 程 中 的 误差 表 
现 选 取 最 优 值 。 最 终 的 隐藏 层 神经 元 数量 为 15 
个 或 11 个 ， 如 图 10 所 示 。 

N=Vm+n+a (7) 

其 中 ，N 为 隐藏 层 节 点 数量 ， 个 ; m 为 输入 
神经 元 数量 ,个 ; 7 为 输出 神经 元 数量 ， 个 ; a 
为 1~10 之 间 的 常数 。 

利用 BP 网 络 进行 数据 拟 合 的 主要 步骤 如 下 。 

(1) 数据 归 一 化 。 为 保证 性 能 的 稳定 性 ， 分 
别 对 果实 数量 、 边 界 框 面积 以 及 果树 产量 进行 输 
入 样本 的 归 一 化 处 理 。 通 过 除 以 归 一 化 系数 ， 将 
输入 特征 和 输出 产量 归 一 到 0~1 之 间 。 

(2) BP 网 络 训 练 。 可 分 为 四 步 ， 首 先 ， 初 


始 化 网 络 权 重 ; 其 次 ， 数 据 正 向 传播 ;， 再 次 ， 误 
差 反 向 传播 ; 最 后 ， 网 络 权重 与 神经 网 络 元 俩 置 
调整 。 

(3) 数据 反 归 一 化 。 为 获取 果树 产量 对 应 的 
常量 ， 需 要 对 预测 值 进行 反 归 一 化 。 将 预测 数据 
乘 以 对 应 的 归 一 化 系数 ， 将 该 数据 重新 映射 到 原 
始 区 间 ， 得 到 最 终 产 量 。 


3.4 模型 训练 


模型 训练 分 为 两 个 阶段 ， 第 一 阶段 为 果实 检 
测 ， 通 过 训练 目标 检测 算法 ， 预 测 图 片 中 果实 数 
量 及 边界 框 总 面积 ; 第 二 阶段 为 产量 预测 ， 基 
T BP 神 经 网 络 拟 合 数据 集 的 果实 数量 、 边 界 框 
面积 和 产量 。 

KH Py Torch 深度 学 习 框 架 进 行 模 型 的 搭建 ， 
系统 硬件 配置 为 AMD Ryzen7 4800H CPU@ 
2.9GHz Xb E 4$ , 6 GB NVIDIA GeForce GTX 
1660Ti GPU, 16 GB 运行 内 存 ，512 GB SSD 便 
盘 容量 ， 训 练 和 测试 所 用 的 操作 系统 为 Win- 
dowsl0, 64 fi A SB. dV E A VE wt W 
PyCharm2019.3.3 社区 版 ， 并 且 配 置 了 CUDA 
10.2 和 cuDNN 7.6.5 进 行 GPU 加 速 工 作 。 


4 算法 测试 与 试验 


4.1 果实 检测 算法 性 能 分 析 


本 人 研究 选取 平均 准确 率 (m4P) 作为 算法 的 
整体 评价 指标 。 查 准 率 (P) 是 指 被 预测 为 正 例 
的 样本 中 实际 为 正 样本 的 比例 ， 查 全 率 (R) 是 
指 实际 为 正 例 的 样本 中 被 预测 为 正 样本 的 比例 ， 
根据 查 准 率 和 查 全 率 之 间 的 关系 可 以 绘制 查 准 率 
一 查 全 率 曲 线 (P-R 曲 线 )。 所 有 类 别 的 准确 率 
(AP) 是 指 曲 线 与 坐标 轴 围 成 区 域 的 面积 ， 求 出 
所 有 类 别 的 4P 并 取 均 值 ， 可 得 各 类 别 的 m4P， 
计算 如 公式 (8) ~ (11) 所 示 。 


_ TP 

P TH (8) 
TP 

a eT (9) 
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ia 融合 深度 可 分 离 卷 积 和 注意 力 机 制 模块 的 YO- 
mAP = =) AP, (11) ”LOv5 算 法 与 未 改进 的 YOLOv5 算法 进行 检测 速 


度 、 平 均 准 确 率 性 能 测试 ， 性 能 测试 完成 后 进行 
背景 有 白布 以 及 背景 无 白布 数据 测试 。 

(1) 检测 速度 算法 测试 。 本 研究 对 算法 检测 
多 张 图 片 的 速度 进行 记录 ， 并 取 其 均值 ， 对 比试 
验 结果 如 表 2 所 示 ， 包 括 以 改进 前 算法 检测 速度 
为 基础 不 同 改 进 版 本 算法 的 相对 提升 率 。 其 中 
YOLOv5s, YOLOv$m, YOLOwvsSI 和 YOLOv5x 

为 验证 本 研究 提出 的 改进 型 YOLOv5 果 实 检 — 49 YOLOvS 的 4 个 不 同 深度 和 宽度 的 网 络 结 
测算 法 的 可 行 性 ， 需 要 对 特征 提取 网 络 中 单独 更 。 构 ， 其 参数 量 依次 递增 。 

表 2 改进 前 后 算法 检测 速度 的 对 比试 验 结果 


Table 2 Comparison experiment results of the detection speed of the algorithm before and after the improvement 


其 中 ，7P 为 正 样 本 预测 正确 的 数量 ,个 ; 
FN 为 负 样 本 预测 错误 的 数量 , 个 ; FP 为 正 样本 
预测 错误 的 数量 ,个 ; TN 为 负 样 本 预测 正确 的 
数量 ,个 ; p(7) 为 不 同 查 准 率 r 下 对 应 的 查 全 率 
ps 4P, 为 第 ;类 的 检测 准确 率 ; N 为 类 别 数 


E 
E, as 
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算法 检测 速度 及 相对 提升 率 YOLOv5s — YOLOvSm YOLOv5I — YOLOv5x 
检测 速度 /ms 37.16 84.87 152.33 310.53 
改进 前 
相对 提升 率 /% 0.00 0.00 0.00 0.00 
METER . 检测 速度 /ms 30.73 70.85 132.26 275.54 
单独 更 换 深 度 可 分 离 卷 积 
相对 提升 率 /% -1728 -16.51 13.17 -11.26 
: "a ; 检测 速度 /ms 37.83 87.24 155.87 318.66 
改进 后 单独 艇 入 注意 力 机 制 模 块 
相对 提升 率 /% 1.80 2.79 2.32 2.61 
7 m " 检测 速度 /ms 31.44 72.90 136.28 281.49 
融合 深度 可 分 离 卷 积 和 注意 力 机 制 模块 
相对 提升 率 /% -15.37 -14.10 -10.50 -9.35 
单独 更 换 深 度 可 分 离 卷 积 ， 使 算法 的 检测 速 不 同 改进 版 本 算法 的 绝对 提升 率 。 


度 明显 提升 ， 提 升幅 度 为 11.26%~17.28%。 单 独 
能 入 注意 力 机 制 模块 会 对 计算 速度 有 一 定 影响 ， 
但 是 影响 较 小 ， 与 改进 前 YOLOv5 算 法 检测 速度 
基本 持平 。 融 合 深度 可 分 离 卷 积 和 注意 力 机 制 模 
块 后 ， 与 单独 更 换 深度 可 分 离 卷 积 相 比 ， 算 法 会 
增加 部 分 计算 负担 ， 降 低 部 分 检测 速度 ; 检测 速 
度 最 快 为 31.44 ms, 与 改进 前 相 比 提升 最 大 
15.37%。 上 述 结果 表明 ， 单 独 更 换 深度 可 分 离 卷 
积 带 来 计算 速度 的 提升 较 大 ; 融合 注意 力 机 制 模 
块 后 ， 与 改进 前 的 算法 相 比 仍 具 有 较 快 的 检测 速 
度 优 势 。 

(2) 平均 准确 率 算 法 测试 。 本 研究 对 算法 检 
测 多 张 图 片 的 m4P 进 行 记 录 ， 对 比试 验 结果 如 
表 3 所 示 ， 包括 以 改进 前 算法 平均 准确 率 为 基础 


改进 前 的 YOLOv5 算 法 在 不 同 结构 下 的 m4P 
分 别 是 89.83%、90.75%、92.07% 和 93.44%， 除 
了 改进 后 单独 更 换 深度 可 分 离 卷 积 YOLOv5s 的 
检测 准确 率 低 于 90%， 其 余 结 构 均 在 90% 以 上 ， 
该 结果 表明 YOLOv5 拥有 较 好 的 模型 结构 以 及 检 
测 效 果 ， 对 自然 环境 下 的 苹果 检测 具有 较 好 的 适 
用 性 。 单 独 更 换 深度 可 分 离 卷 积 会 使 算法 损失 少 
量 准确 率 ， 与 改进 前 相 比 ， 损 失 率 基本 控制 在 
196 以 内 。 不 同 结构 下 算法 最 高 准确 率 与 最 低 准 
确 率 最 大 相差 4.35%， 出 现在 单独 乱入 注意 力 机 
制 模块 的 YOLOv5 算 法 检测 中 ， 在 该 种 改进 方式 
下 ， 检 测 准 确 率 与 改进 前 相 比 最 大 可 提升 
3.56%， 平 均 提升 3.17%。 通 过 在 算法 结构 中 髓 
入 注意 力 机 制 模块 ， 有 助 于 将 卷 积 计算 得 到 的 浅 
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表 3 改进 前 后 算法 m4P 对 比试 验 结果 
Table 3 Comparison of experiment results of the original algorithm and the improved algorithm of the mAP 
单位 :% 
算法 dodici YOLOv5 YOLOv5 YOLOvSI YOLOv5 
LIA VƏS vom V. VOX 
对 提升 率 
Nm 平均 准确 率 89.83 90.75 92.07 93.44 
改进 前 
绝对 提升 率 0.00 0.00 0.00 0.00 
. 平均 准确 率 88.94 90.05 91.55 92.77 
单独 更 换 深度 可 分 离 卷 积 
绝对 提升 率 -0.89 -0.70 -0.52 -0.67 
i 平均 准确 率 92.10 94.62 95.63 96.45 
改进 后 单独 艇 入 注意 力 机 制 模块 i 
绝对 提升 率 2.27 3.87 3.56 3.01 
平均 准确 率 92.88 93.99 95.15 96.27 
融合 深度 可 分 离 卷 积 和 注意 力 机 制 模块 
对 提升 率 3.05 3.24 3.08 2.83 
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层 特征 图 抽取 为 重要 信息 更 多 的 深层 特征 图 ， 学 
习 通 道 间 的 相关 性 ， 把 特征 图 中 重要 的 特征 增 
强 ， 次 要 的 特征 减弱 ， 对 关键 信息 进行 更 进一步 
的 提取 ， 有 效 提 升 算法 的 整体 检测 效果 。 融 合 后 
的 YOLOv51 和 YOLOv5x 检测 准确 率 均 超过 
95%, H YOLOv5x 的 检测 准确 率 达 到 96.27% ， 
为 测试 结果 最 高 。 以 上 结果 均 表明 改进 后 的 YO- 
LOv5 算 法 具有 和 较 高 的 检测 准确 率 。 

(3) 背景 有 白布 算法 测试 。 在 自然 光照 条 件 
下 ， 太 阳光 作为 主要 的 光源 ， 不 同 的 拍摄 角度 会 
在 一 定 程度 上 影响 目标 检测 的 m4P。 本 研究 选取 
了 不 同时 间 点 下 不 同 光 照 角度 的 苹果 图 像 作 为 样 
本 数据 集 ， 对 改进 后 的 YOLOv5 模 型 进行 迭代 训 
练 ， 目 标 检测 效果 如 网 11。 

顺 光 拍摄 的 照片 明亮 清晰 ， 不 会 出 现 明显 的 
光影 变化 ; 侧 光 拍摄 的 照片 层次 分 明 ， 物 体 有 较 
为 明显 的 轮廓 ;逆光 拍摄 的 照片 阴暗 模糊 ， 容 易 
出 现 曝光 不 足 。 本 研究 针对 上 述 不 同 数据 集 ， 并 


HS YOLOv5, YOLOv3, SSD 等 模型 进行 对 比 
实验 ， 各 模型 检测 结果 如 表 4 所 示 。 

改进 的 YOLOV5 在 各 种 不 同 的 光源 和 时 间 点 
的 数据 中 ， 全 部 得 到 了 最 好 的 检测 结果 。 最 高 
mAP 出 现在 着 色 15 d 侧 光 数 据 集 ， 达 到 96.7996, 
在 不 同 数据 集中 表现 均 优 于 YOLOv5、YO- 
LOv3、SSD， 在 不 同 测试 集中 平均 m4P 为 
93.30% ， 说 明 改 进 YOLOvS 算 法 具有 较 好 的 检 
测 性 能 ; 所 有 算法 在 侧 光 条 件 下 检测 效果 最 好 ， 
在 逆光 条 件 下 检测 效果 最 差 的 原因 是 : 逆光 下 树 
叶 与 果实 的 颜色 较 暗 ， 果 实 边 缘 不 够 清晰 ， 容 易 
造成 混 消 ， 增 加 目标 检测 难度 ; 算法 效果 随 着 色 
时 间 提 高 ， 原 因 在 于 着 色 1 d 果 实 颜色 与 树叶 颜 
色 较 为 接近 ， 呈 现 出 绿色 ， 容 易 误 识别 ， 而 第 
15 d 果 实 颜 色 较 为 鲜艳 ， 可 以 明显 与 周围 叶片 区 
分 开 ， 检 测 准确 率 较 高 。 

(4) 背景 无 白布 算法 测试 。 为 验证 改进 型 
YOLOv5 果实 检测 算法 在 自然 环境 下 的 应 用 效 


表 4 不 同 数据 集 的 m4P 对 比试 验 结果 
Table 4 MAP comparison results of different data sets 


单位 :% 
— 着 色 1 d 数 据 集 着 色 8 d 数 据 集 着 色 15 d 数 据 集 
顺 光 侧 光 逆光 MSG 侧 光 逆光 顺 光 侧 光 逆光 
改进 型 YOLOv5 90.25 92.48 89.31 93.56 95.08 92.95 95.26 96.79 94.07 
YOLOv5 89.56 90.57 87.35 91.78 92.23 90.57 93.57 94.29 92.38 
YOLOv3 87.82 88.11 86.77 89.93 90.86 88.75 92.27 93.33 91.43 


SSD 86.26 86.98 83.67 87.69 89.54 88.37 90.25 91.33 89.40 
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(b) di & 1 da 


(e) & 8 d 侧 光 (Dd & 8 dij 


(g) d 615 d 顺 光 (h) Xi & 15 d 侧 光 Gd e 15 d3é 
All 不 同时 间 点 不 同 光照 角度 的 果实 检测 效果 (背景 有 白布 ) 


Fig. 11 Detection results under different illumination angles at different time instances( with white cloth in background ) 


对 无 白色 背景 的 着 色 1d、8 d 和 15 d 苹 果 图 K, 呈现 特征 较 多 ， 算 法 对 其 预测 的 置信 度 较 


Ze 
像 进行 测试 ， 结 果 如 图 12。 高 ; 十 处 的 苹果 在 图 像 上 占据 的 像素 点 数量 较 
结果 可 知 ， 算 法 均 可 完成 检测 任务 ， 对 近 处 。” 少 ,呈现 的 特征 较 少 ， 识 别 置信 和 度 受 到 影响 。 
的 果实 识别 率 较 高 。 由 于 近 处 的 苹果 区 域 面积 较 表 5 为 无 日 布 背景 下 的 算法 md4P 对 比 结 
P i r. - 0.39 RR We ~ 


0.9: 0.70 
lo.41 2° 0.80 0.72 
0.86 0.79, «0.76 


0.72 


0.32 
0.58 


gr 
O00.88= 0.86 


CEP ose 0:58 


ETUR OE ATES (OHE 15d IB 
图 12 不 同时 间 点 背景 无 白布 的 果实 检测 效果 


Fig. 12 Fruit detection results without white cloth in background at different times in stances 
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与 背景 有 白布 的 算法 检测 准确 率 相 比 ， 在 不 同 着 
色 时 间 的 数据 集 下 均 有 一 定 的 准确 度 损失 。 但 是 
id RAE 需要 测定 的 是 距离 摄像 头 较 
近 的 果树 产量 ， 利 用 算法 过 滤 青 景 中 的 果树 果 
实 ， 减 少 背景 果实 对 其 产量 的 影响 ， 因 此 在 该 背 
景 下 并 不 是 检测 准确 率 越 高 越 好 。 本 研究 的 果实 
ee 滤 除 远 处 苹果 
的 要 求 ， 可 适用 于 背景 无 日 布 的 果实 检测 。 
表 5 背景 无 白布 下 的 算法 m4P 对 比试 验 结果 


Table 5 Comparison experimental results of the mAP 
of the algorithm under the condition of without white 


cloth in background 


单位 : % 
数据 集 《YOLOv5s YOLOvSm YOLOv5l YOLOv5x 
着 色 1d 81.47 83.26 84.63 85.89 
着 色 8d 83.54 86.72 87.39 88.17 
4 415d 84.76 87.93 89.56 90.72 


4.2 产量 拟 合 网 络 性 能 分 析 


采用 表 6 中 的 相关 参数 评估 产量 拟 合 网 络 的 
性 能 。 相 关系 数 尺 和 决定 系数 尼 用 于 衡量 预测 产 
量 和 实际 产量 之 间 的 相关 程度 ， 数 值 越 大 表明 二 
者 的 相关 性 越 好 ; 均 方 根 误差 RAMSE 用 来 衡量 预 
测 产 量 和 实际 产量 之 间 的 误差 ， 其 值 越 小 表明 精 
确 度 越 高 ; 平均 绝对 误差 MAE 和 平均 绝对 百 分 
比 误差 M4PE 能 够 反映 预测 产量 偏离 实际 产量 的 
程度 ， 数 值 越 小 ， 表 明 二 者 差别 越 小 ， 拟 合 效 果 
越 好 。 在 训练 集 和 测试 集 上 预测 产量 和 实际 产量 
的 R 分 别 为 0.8979 和 0.8864，R? 分 别 为 0.7967 和 
0.7982， 表 明 果 实数 量 、 边 界 框 面积 和 产量 之 间 
线性 相关 程度 较 高 ， 曲 线 拟 合 较 好 。 

X6 BP 估 测 模块 的 性 能 参数 


Table 6 The performances of BP yield measurement module 


参数 训练 集 测试 集 

R 0.8979 0.8864 

R? 0.7967 0.7982 
RMSE/kg 1.5317 1.4021 
MAE/kg 1.1259 1.0253 
MAPE/% 6.3372 6.2524 


对 于 训练 集 样本 ，RMSE 为 1.5317 kg, MAE 
为 1.1259 kg, MAPE 为 6.3372%; 对 于 测试 集 样 
AS, RMSE 为 1.4021 kg, MAE 为 1.0253 kg, 
MAPE Y 6.2524% 。 

基于 样本 训练 集 建立 的 产量 拟 合 网 络 ， 在 测 
试 集 上 的 对 比 结果 如 图 13 所 示 。 可 见 ， 该 模型 
可 以 较 好 地 预测 出 果树 产量 ， 对 于 不 同 产量 样本 
的 预测 精度 基本 稳定 ， 具 有 较 好 的 和 鲁 棒 性 。 通 过 
测试 结果 可 知 该 模型 可 适用 于 自然 环境 下 果树 收 
获 前 的 产量 测定 。 


22 >e 预测 产量 
一 一 实际 产量 


20 


单 株 果树 产量 /kg 


12345267 8 9 10 111213 14 15 
pe Sia 


图 13 测试 集 下 的 预测 产量 和 实际 产量 的 对 比 
Fig. 13 Comparison of predicted and actual yields under the 


test data-sets 
4.3 测 产 模型 测试 


(1) 背景 有 白布 的 测 产 模型 性 能 测试 。 用 本 
研究 提出 的 苹果 树 测 产 模型 ， 以 产量 验证 集中 青 
景 有 上 白布 的 果树 图 像 作为 输入 ， 输 出 该 株 果 树 的 
预测 产量 。 由 表 7 所 示 的 相对 误差 可 见 ， 测 产 模 
型 相对 误差 的 绝对 值 取 值 范围 为 3.05% 一 6.13% 。 
在 对 10 组 数据 的 预测 过 程 中 ， 仅 有 第 7 组 的 误差 
稍 大 ， 总 体 相 对 误差 范围 基本 在 7% 以 内 。 表 明 
提出 的 果树 测 产 模 型 对 于 输入 背景 有 白布 的 果树 
图 像 ， 有 着 较 好 的 产量 预测 效果 ; 可 以 通过 果实 
检测 算法 和 产量 拟 合 网 络 的 协调 工作 ， 学 习 到 图 
像 数 据 以 及 产量 数据 的 重要 特征 ， 输 出 相应 的 预 
测 产量 。 

(2) 无 白布 背景 的 测 产 模型 性 能 测试 。 为 验 
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证 本 研究 提出 的 测 产 模型 在 自然 环境 下 的 应 用 效 
果 ， 选 用 产量 验证 集中 图 像 背 景 无 日 布 的 数据 集 


作为 模型 输入 ， 输 出 该 株 果树 的 预测 产量 ， 经 过 
计算 后 得 到 表 8 所 示 的 相对 误差 。 


表 7 背景 有 白布 的 测 产 模 型 相对 误差 


Table 7 Relative error of yield measurement model with white cloth in background 


评价 指标 第 一 组 “第 二 组 ”第 三 组 第 四 组 第 五 组 第 六 组 第 七 组 第 八 组 第 九 组 第 十 组 
相对 误差 6/% 3.05 4.25 -4.17 3.75 -5.81 4.10 -6.3 -5.39 5.41 4.28 


X8 背景 无 白布 的 测 产 模型 相对 误差 


Table 8 Relative error of yield measurement model without white cloth in background 


评价 指标 第 一 组 ”第 二 组 第 三 组 第 四 组 第 五 组 第 六 组 第 七 组 第 八 组 第 九 组 第 十 组 
相对 误差 %% -10.34 9.72 12.15 9.83 11.13 -10.54 -12.71 8.28 11.67 -9.37 


与 背景 有 白布 的 测试 结果 相 比 ， 背 景 无 白布 
的 测 产 模型 相对 误差 偏 大 ， 绝 对 值 的 取 值 范围 为 
8.28% 一 12.71%。 出 现 这 一 现象 的 主要 原因 在 于 
背景 中 有 其 他 果树 果实 的 和 干扰， 产量 拟 合 网 络 在 
预测 产量 时 会 将 检测 到 的 果实 均 判 定 为 当前 果树 
果实 ， 导 致 结果 出 现 一 定 的 偏差 。 但 是 ， 背 景 
树 中 仅 有 部 分 特征 较 多 的 革 果 会 被 识别 ， 大 部 分 
革 果 由 于 距离 较 远 ， 在 图 像 中 占据 的 像素 点 较 
少 ， 检 测算 法 不 能 识别 ， 因 此 造成 的 影响 不 大 ， 
相对 误差 总 体 范围 在 13% 以 内 。 上 述 结 果 表 明 ， 
本 研究 提出 的 测 产 模型 具有 良好 的 精度 和 有 效 
性 ， 并 且 在 不 同 背 景 下 的 测 产 鲁 棒 性 较 好 ， 可 适 
用 于 自然 环境 下 的 苹果 树 产量 测定 。 


5 4 it 


本 研究 提出 了 一 种 苹果 树 测 产 模型 ， 融 合 产 
量 拟 合 网 络 和 改进 型 YOLOv5 果 实 检测 算法 ， 结 
合 数据 集 预 处 理 ， 对 模型 进行 了 训练 和 应 用 ， 结 
论 如 下 。 

(1) 通过 更 换 深度 可 分 离 卷 积 和 添加 注意 力 
机 制 模块 改进 的 YOLOvV5 苹果 检测 网 络 ， 解 决 网 
络 中 存在 的 特征 提取 时 无 注意 力 偏好 问题 和 参数 
元 余 问 题 。 以 图 像 数 据 集 为 输入 ， 得 到 估 测 果实 
数量 以 及 边界 框 面 总 积 。 测 试 结果 表明 ， 该 算法 
可 以 在 提高 轻 量化 程度 的 同时 提升 准确 率 ， 与 改 
进 前 相 比 ， 检 测速 度 最 大 可 提升 15.37%， 平均 
mA4P 最 高 达到 96.79%， 在 不 同 数据 集 下 的 测试 
结果 表明 光照 条 件 、 着 色 时 间 以 及 背景 有 无 白布 


均 对 算法 准确 率 有 一 定 影响 。 

(2) 以 估 测 果实 数量 与 边界 框 面积 为 输入 、 
实际 产量 为 输出 ， 训 练 产量 拟 合 网 络 ， 测 试 结 
表明 ,产量 拟 合 网 络 训练 集 和 测试 集 的 尼 分 别 
为 0.7967 和 0.7982, RMSE 分 别 为 1.5317 和 
1.4021 kg， 测 产 误 差 较 小 。 

(3) 将 果实 检测 算法 和 产量 拟 合 网 络 融合 得 
到 最 终 的 测 产 模型 。 试 验 结果 表明 ， 果 树 测 产 模 
型 在 背景 有 白布 和 无 白布 的 条 件 下 ， 相 对 误差 范 
围 分 别 在 7% 以 内 和 13% 以内， 证 明 本 研究 建立 
的 苹果 园 原 位 测 产 模型 具有 较 好 的 精度 和 和 鲁 棒 
性 。 如 增加 更 多 的 样本 作为 数据 输入 ， 可 进一步 
提高 目标 的 识别 度 和 测 产 的 准确 性 。 
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Yield Estimation Method of Apple Tree Based on 
Improved Lightweight YOLOv5 


LI Zhijun", YANG Shenghui", SHI Deshuai", LIU Xingxing", ZHENG Yongjun' ^ 


(1. College of Engineering, China Agricultural University, Beijing 100083, China; 2. Yantai Institute of China Agri- 
cultural University, Yantai 264670,China ) 


Abstract: Yield estimation of fruit tree is one of the important works in orchard management. In order to improve the accuracy 
of in-situ yield estimation of apple trees in orchard, a method for the yield estimation of single apple tree, which includes an im- 
proved YOLOVS fruit detection network and a yield fitting network was proposed. The in-situ images of the apples without bags 
at different periods were acquired by using an unmanned aerial vehicle and Raspberry Pi camera, formed an image sample data 
set. For dealing with no attention preference and the parameter redundancy in feature extraction, the YOLOvS network was im- 
proved by two approaches: 1) replacing the depth separable convolution, and 2) adding the attention mechanism module, so that 
the computation cost was decreased. Based on the improvement, the quantity of fruit was estimated and the total area of the 
bounding box of apples were respectively obtained as output. Then, these results were used as the input of the yield fitting net- 
work and actual yields were applied as the output to train the yield fitting network. The final model of fruit tree production esti- 
mation was obtained by combining the improved YOLOvS network and the yield fitting network. Yield estimation experimental 
results showed that the improved YOLOVvS fruit detection algorithm could improve the recognition accuracy and the degree of 
lightweight. Compared with the previous algorithm, the detection speed of the algorithm proposed in this research was in- 
creased by up to 15.37%, while the mean of average accuracy (mAP) was raised up to 96.79%. The test results based on differ- 
ent data sets showed that the lighting conditions, coloring time and with white cloth in background had a certain impact on the 
accuracy of the algorithm. In addition, the yield fitting network performed better on predicting the yield of apple trees. The coef- 
ficients of determination in the training set and test set were respectively 0.7967 and 0.7982. The prediction accuracy of differ- 
ent yield samples was generally stable. Meanwhile, in terms of the with/without of white cloth in background, the range of rela- 
tive error of the fruit tree yield measurement model was respectively within 7% and 13%. The yield estimation method of apple 
tree based on improved lightweight YOLOvS had good accuracy and effectiveness, which could achieve yield estimation of ap- 
ples in the natural environment, and would provide a technical reference for intelligent agricultural equipment in modern or- 
chard environment. 


Key words: apple in-situ yield estimation; deep learning; fruit detection; BP neural network; YOLOv5 
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